查看原文
其他

有了它,细胞鉴定也没想象的那么难嘛!| 单细胞专题

运营部-GCL 联川生物 2022-05-21
单细胞技术正在快速发展,但标注细胞类型一直是单细胞数据分析的重点和难点,之前有给大家介绍过如何基于marker基因进行人工标注(https://mp.weixin.qq.com/s/qbsjLgAJw9TFzSpVoZLKXA)。但人工标注细胞类型有一定的主观性且属于劳动密集型,速度有限。这里介绍两款自动化细胞注释软件,辅助您的单细胞研究。1Garnett软件Garnett(https://cole-trapnell-lab.github.io/garnett/)是基于细胞类型特定marker基因的一种可解释、分层标记语言。该软件算法文章2019年发表在Nature Methods-Supervised classification enables rapid annotation of cell atlases.Garnett算法流程图如下:
简单来说:
1)将使用marker基因标记细胞类型的标记文件作为输入文件;2)构建一个可以包含细胞子类型的细胞类型层次结构;3)通过比较细胞类型代表细胞,在从树的根开始的每个节点上使用弹性网络多项式回归训练分类器;4)最后,对所有细胞进行分类。目前,Garnett已有的预先训练好的分类器有以下几个组织(人-肺组织,人-PBMC,小鼠-肺组织,小鼠-脑组织和脊髓):2SingleR全自动细胞注释R包与Garnett基于marker进行细胞注释的方式不同,SingleR(软件参考文献:Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage)是基于纯细胞类型的参考转录组数据集来推荐每个细胞可能的类型。SingleR算法基本原理:1)计算参考数据中每个样本与每个细胞表达的Spearman相关系数2)整合参考数据集中每个细胞类型的多个相关系数,从而为每个细胞类型提供一个值3)重新运行相关性分析,但该步骤只针对步骤2中相关性较高的细胞类型,直至对应的细胞类型分配给单个细胞由于该软件是基于纯细胞类型的参考转录组数据集进行的,因此也有一定的限制性,并非所有的组织类型均能使用该方法进行自动化注释。目前我司针对该软件的两个库进行细胞注释,主要是人的HPCA(Human Primary Cell Atlas)数据集和小鼠的GEO上358个样本的已排序细胞群数据集。1)HPCA可以标记的主要细胞类型共36种如下:2)小鼠的可以标记的主要细胞类型共18种如下:
如果您的组织类型比较特殊,主要包含的细胞类型不再以上的细胞类别内,则无法使用该软件进行自动化注释。但随着研究的深入,相信会有越来越多纯细胞类型的参考转录组数据集,后续可以鉴定到的细胞类别也会越来越多~
最后,基于纯细胞类型的参考转录组数据集推荐每个细胞可能的类型的方法准确度如何呢?我们采用已知的marker基因对自动化注释的结果进行了验证。首先,我们看下SingleR自动化注释结果,如下:然后,我们再看下各类细胞的marker基因在细胞中的表达情况,以T细胞和B细胞marker基因表达情况为例:
上图为B细胞marker基因表达情况,下图为T细胞marker基因表达情况
从以上marker基因表达情况来看,SingleR鉴定得到的B细胞和T细胞与特异性marker基因表达情况基本一致。综上,两款软件虽然可以快速的进行细胞注释,但都还有一定的局限性。Garnett已有的预先训练好的分类器种类还比较少,SingleR已有的纯细胞类型的参考转录组数据集也有限,目前只有人和小鼠的部分细胞类别。最后,建议使用自动化注释软件和人工手动注释相结合的方式进行细胞鉴定。


相关阅读


植物单细胞研究进展及后续研究方向 | 单细胞专题
一文让您搞懂单细胞转录组分析原理 | 单细胞专题
单细胞测序,明明可以捕获1W细胞,为什么高分文章只捕获2-3千个细胞?| 单细胞专题
同样是做单细胞测序,您选择的基因为什么标记不到细胞?| 单细胞专题
一文轻松玩转10X单细胞转录组官方分析软件CellRange | 单细胞专题
104篇最新10X单细胞文章信息大提取:解决单细胞项目设计中样本数与细胞捕获数问题 |单细胞专题
scATAC技术的应用 | 单细胞专题
单细胞RNA-seq分析揭示人类骨关节炎进展

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存